智能论文笔记

An Augmentation Strategy for Visually Rich Documents

Jing Xie , James B. Wendt , Yichao Zhou , Seth Ebner , Sandeep Tata

分类：自然语言处理

2022-12-20

Many business workflows require extracting important fields from form-like documents (e.g. bank statements, bills of lading, purchase orders, etc.). Recent techniques for automating this task work well only when trained with large datasets. In this work we propose a novel data augmentation technique to improve performance when training data is scarce, e.g. 10-250 documents. Our technique, which we call FieldSwap, works by swapping out the key phrases of a source field with the key phrases of a target field to generate new synthetic examples of the target field for use in training. We demonstrate that this approach can yield 1-7 F1 point improvements in extraction performance.

translated by 谷歌翻译

Improving Robust Fairness via Balance Adversarial Training

Chunyu Sun , Chenye Xu , Chengyuan Yao , Siyuan Liang , Yichao Wu , Ding Liang , XiangLong Liu , Aishan Liu

分类：机器学习 | 人工智能

2022-09-15

对抗训练（AT）方法有效地防止对抗性攻击，但它们在不同阶级之间引入了严重的准确性和鲁棒性差异，称为强大的公平性问题。以前建议的公平健壮的学习（FRL）适应重新重量不同的类别以提高公平性。但是，表现良好的班级的表现降低了，导致表现强劲。在本文中，我们在对抗训练中观察到了两种不公平现象：在产生每个类别的对抗性示例（源级公平）和产生对抗性示例时（目标级公平）时产生对抗性示例的不同困难。从观察结果中，我们提出平衡对抗训练（BAT）来解决强大的公平问题。关于源阶级的公平性，我们调整了每个班级的攻击强度和困难，以在决策边界附近生成样本，以便更容易，更公平的模型学习；考虑到目标级公平，通过引入统一的分布约束，我们鼓励每个班级的对抗性示例生成过程都有公平的趋势。在多个数据集（CIFAR-10，CIFAR-100和IMAGENETTE）上进行的广泛实验表明，我们的方法可以显着超过其他基线，以减轻健壮的公平性问题（最坏的类精度为+5-10 \％）

translated by 谷歌翻译

Adaptive Perturbation Generation for Multiple Backdoors Detection

Yuhang Wang , Huafeng Shi , Rui Min , Ruijia Wu , Siyuan Liang , Yichao Wu , Ding Liang , Aishan Liu

分类：计算机视觉

2022-09-12

大量证据表明，深神经网络（DNN）容易受到后门攻击的影响，这激发了后门检测方法的发展。现有的后门检测方法通常是针对具有单个特定类型（例如基于补丁或基于扰动）的后门攻击而定制的。但是，在实践中，对手可能会产生多种类型的后门攻击，这挑战了当前的检测策略。基于以下事实：对抗性扰动与触发模式高度相关，本文提出了自适应扰动生成（APG）框架，以通过自适应注射对抗性扰动来检测多种类型的后门攻击。由于不同的触发模式在相同的对抗扰动下显示出高度多样的行为，因此我们首先设计了全球到本地策略，以通过调整攻击的区域和预算来适应多种类型的后门触发器。为了进一步提高扰动注入的效率，我们引入了梯度引导的掩模生成策略，以寻找最佳区域以进行对抗攻击。在多个数据集（CIFAR-10，GTSRB，Tiny-Imagenet）上进行的广泛实验表明，我们的方法以大幅度优于最先进的基线（+12％）。

translated by 谷歌翻译

A Comprehensive Survey of Natural Language Generation Advances from the Perspective of Digital Deception

Keenan Jones , Enes Altuncu , Virginia N. L. Franqueira , Yichao Wang , Shujun Li

分类：自然语言处理

2022-08-11

近年来，旨在生成模仿人类语言流利性和连贯性的文本的系统能力的实质性增长。由此，已经进行了大量研究，旨在检查这些自然语言发生器（NLG）对广泛任务的潜在用途。强大的文本生成器能够令人信服地模仿人类写作的能力越来越多地提高了欺骗和其他形式的危险滥用的潜力。随着这些系统的改善，很难区分人文编写和机器生成的文本，恶意演员可以将这些强大的NLG系统利用到各种各样的目的，包括创建假新闻和错误信息，一代假货在线产品评论，或通过聊天机器人作为说服用户泄露私人信息的手段。在本文中，我们通过对NLG研究的119条类似调查的论文进行识别和检查，概述了NLG领域。从这些已确定的论文中，我们概述了构成NLG的中心概念的拟议高级分类法，包括用于开发广义NLG系统的方法，评估了这些系统的方法以及存在的流行NLG任务和存在的子任务和子任务。反过来，我们就当前的研究提供了对这些项目的概述和讨论，并提供了NLG在欺骗和检测系统中的潜在作用以抵消这些威胁的潜在作用。此外，我们讨论了NLG的更广泛挑战，包括现有文本生成系统经常表现出的偏见风险。这项工作为NLG领域的滥用潜力提供了广泛的概述，旨在提供对这一快速发展的研究领域的高级了解。

translated by 谷歌翻译

Domain Adaptive Person Search

Junjie Li , Yichao Yan , Guanshuo Wang , Fufu Yu , Qiong Jia , Shouhong Ding

分类：计算机视觉

2022-07-25

人搜索是一项具有挑战性的任务，旨在实现共同的行人检测和人重新识别（REID）。以前的作品在完全和弱监督的设置下取得了重大进步。但是，现有方法忽略了人搜索模型的概括能力。在本文中，我们采取了进一步的步骤和现在的域自适应人员搜索（DAPS），该搜索旨在将模型从标记的源域概括为未标记的目标域。在这种新环境下出现了两个主要挑战：一个是如何同时解决检测和重新ID任务的域未对准问题，另一个是如何在目标域上训练REID子任务而不可靠的检测结果。为了应对这些挑战，我们提出了一个强大的基线框架，并使用两个专用设计。 1）我们设计一个域对齐模块，包括图像级和任务敏感的实例级别对齐，以最大程度地减少域差异。 2）我们通过动态聚类策略充分利用未标记的数据，并使用伪边界框来支持目标域上的REID和检测训练。通过上述设计，我们的框架在MAP中获得了34.7％的地图，而PRW数据集的TOP-1则达到80.6％，超过了直接转移基线的大幅度。令人惊讶的是，我们无监督的DAPS模型的性能甚至超过了一些完全和弱监督的方法。该代码可在https://github.com/caposerenity/daps上找到。

translated by 谷歌翻译

DTG-SSOD: Dense Teacher Guidance for Semi-Supervised Object Detection

Gang Li , Xiang Li , Yujie Wang , Yichao Wu , Ding Liang , Shanshan Zhang

分类：计算机视觉 | 人工智能

2022-07-12

平均老师（MT）方案在半监督对象检测（SSOD）中被广泛采用。在MT中，通过手工制作的标签分配，采用了由教师的最终预测（例如，在无最大抑制（NMS）后处理之后）提供的稀疏伪标签（例如，在无最大抑制（NMS）后处理）。但是，稀疏到密集的范式使SSOD的管道复杂化，同时忽略了强大的直接，密集的教师监督。在本文中，我们试图直接利用教师的密集指导来监督学生培训，即密集至密集的范式。具体而言，我们建议逆NMS聚类（INC）和等级匹配（RM），以实例化密集的监督，而无需广泛使用的常规稀疏伪标签。 Inc带领学生像老师一样将候选箱子分组为NMS中的群集，这是通过学习在NMS过程中揭示的分组信息来实现的。在通过Inc获得了与教师相同的分组计划后，学生通过排名匹配进一步模仿了教师与聚类候选人的排名分配。借助拟议的Inc和RM，我们将密集的教师指导集成到半监督的对象检测（称为DTG-SSOD）中，成功地放弃了稀疏的伪标签，并在未标记的数据上提供了更有信息的学习。在可可基准上，我们的DTG-SSOD在各种标签率下实现了最先进的性能。例如，在10％的标签率下，DTG-SSOD将监督的基线从26.9提高到35.9地图，使以前的最佳方法软教师的表现优于1.9分。

translated by 谷歌翻译

Learning to Infer 3D Shape Programs with Differentiable Renderer

Yichao Liang

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-25

给定日常工件，例如桌子和椅子，人类识别其中的高级规律性，例如桌子的对称性，腿的重复，同时拥有低级的几何学，例如，表面是平稳的，边缘是光滑的，边缘是光滑的。锋利。这种知识构成了人类感知理解和推理的重要组成部分。在这种知识中的表现以及如何推理，以及其获取的习得仍然是人工智能（AI）和认知科学中的开放问题。基于\ emph {3D形状程序}的先前建议，单独使用\ citet {tian2019llear}的随附的神经发电机和执行者，我们提出了一个分析性但可不同的执行者，在解释形状程序中更忠实，可以控制外推）和更有效的样本效率（不需要培训）。当无法获得地面真理程序时，这些促进了发电机的学习，当人类设计师或 - 在图书馆学习的背景下，当新的形状编程组件被录入时，应该特别有用。关于使用它进行适应的初步实验说明了所提出的模块的上述优势，鼓励在建筑机器中探索类似的方法，这些方法学会通过上述知识来推理推理，甚至学习这些知识本身。

translated by 谷歌翻译

Transition-based Abstract Meaning Representation Parsing with Contextual Embeddings

Yichao Liang

分类：自然语言处理 | 人工智能 | 机器学习

2022-06-13

理解和生成语言的能力使人类认知与其他已知的生命形式不同。我们研究一种在语义解析的任务中，将两种最成功的途径（统计语言模型和象征性语义形式主义）梳理到语言的意义。我们基于基于过渡的抽象表示（AMR）解析器，AMREAGER，我们探索了融合预验证的上下文感知的单词嵌入的实用性 - 例如Bert和Roberta，在AMR解析的问题中，我们为新的解析器做出了贡献。 Dub作为Amrberger。实验发现，与非上下文对应物相比，这些丰富的词汇特征对改善解析器的总体表现并不特别有助于改善解析器的整体性能，而其他概念信息则赋予了系统以优于基准的能力。通过病变研究，我们发现上下文嵌入的使用有助于使系统更强大，以消除显式句法特征。这些发现揭示了上下文嵌入的优势和劣势，并以当前形式揭示了语言模型，并激发了更深入的理解。

translated by 谷歌翻译

Drawing out of Distribution with Neuro-Symbolic Generative Models

Yichao Liang , Joshua B. Tenenbaum , Tuan Anh Le , N. Siddharth

分类：机器学习 | 人工智能 | 计算机视觉 | 神经与进化计算

2022-06-03

从感知输入中学习通用表示是人类智力的标志。例如，人们可以通过将这些任务描述为相同的通用基础过程的不同实例来写出数字或字符，甚至绘制涂鸦，即不同形式的笔画的组成布置。至关重要的是，学会（例如写作）学习完成一项任务意味着由于这个共同的过程，在绘画中（绘图）意味着合理的能力。我们介绍了分布（DOOD）的图形，这是一种基于中风的图形的神经符号生成模型，可以学习这种通用用途。与先前的工作相反，DOOD直接在图像上运行，不需要监督或昂贵的测试时间推理，并且使用符号中风模型执行无监督的摊销推断，从而更好地实现了可解释性和概括性。我们评估了DOOD在数据和任务中概括的能力。我们首先执行从一个数据集（例如MNIST）到另一个数据集（例如QuickDraw），跨五个不同数据集的零射击传输，并显示DOOD明显优于不同基线的DOOD。对学习表示的分析进一步凸显了采用符号中风模型的好处。然后，我们采用Omniglot挑战任务的子集，并评估其生成新的示例（无论是无条件和有条件地）的能力，并执行一声分类，表明DOOD与最先进的状态相匹配。综上所述，我们证明了DOOD确实确实在数据和任务中捕获了通用表示形式，并迈出了迈向建立一般和健壮的概念学习系统的进一步步骤。

translated by 谷歌翻译

Non-Parametric Domain Adaptation for End-to-End Speech Translation

Yichao Du , Weizhi Wang , Zhirui Zhang , Boxing Chen , Tong Xu , Jun Xie , Enhong Chen

分类：自然语言处理 | 人工智能

2022-05-23

端到端语音翻译（E2E-ST）由于其误差传播的潜力，较低的延迟和较少的参数而受到了越来越多的关注。但是，基于神经的方法对该任务的有效性受到可用培训语料库的严重限制，尤其是对于较少或不存在的域中三重障碍培训数据的领域适应性。在本文中，我们提出了一种新型的非参数方法，该方法利用特定于域的文本翻译语料库来实现E2E-ST系统的域适应性。为此，我们首先将一个附加的编码器纳入预先训练的E2E-ST模型中，以实现文本翻译建模，然后通过减少可用三重态训练数据中的通讯表示不匹配来统一解码器的输出表示形式，以实现文本和语音翻译任务。在域适应过程中，引入了K-Nearest-neighbor（KNN）分类器，以使用由域特异性文本翻译语料库构建的外部数据存储器生成最终的翻译分布，而采用通用输出表示来执行相似性搜索。 Europarl-St基准的实验表明，仅涉及内域文本翻译数据时，我们提出的方法在所有翻译方向上平均将基线显着提高了基线，即使表现出强大的强度内域微调方法。

translated by 谷歌翻译